其他
Service Mesh 落地负责人亲述:蚂蚁金服双十一四大考题
2019 年的双十一是蚂蚁金服的重要时刻,大规模落地了 Service Mesh 并顺利保障双十一平稳渡过。我们第一时间与这次的落地负责人进行了交流。
采访的开头:
花肉:“这次大规模上了 Service Mesh ,双十一值班感觉是什么?” 卓与:“Service Mesh 真的稳。”
落地负责人介绍
Service Mesh 在蚂蚁金服
Service Mesh 背景知识
2019 Service Mesh 双十一大考揭秘
双十一考题
落地架构
数据面:借助 Kubernetes 中的 Pod 模型,SOFAMosn 以独立镜像和 App 镜像共同编排在同一个 Pod 内,共享相同的 Network Namespace、CPU、Memory,接入 SOFAMosn 后所有的 App RPC 流量、消息流量均不在直接对外,而是直接和 SOFAMosn 交互,由 SOFAMosn 直接对接服务注册中心做服务发现,对接 Pilot 做配置下发,对接 MQ Server 做消息收发等; 控制面:由 Pilot、Citadel 和服务注册中心等组件组成,负责服务地址下发、服务路由下发、证书下发等; 底层支撑:Sidecar 的接入与升级等均依赖 Kubernetes 能力,通过 webhook 做 Sidecar 的注入,通过 Operator 做 Sidecar 的版本升级等,相关运维动作均离不开底层的支撑; 产品层:结合底层提供的原子能力做运维能力封装,监控对接,采集 Sidecar 暴露的 Metrics 数据做监控与预警,流量调控,安全等产品化能力;
蚂蚁金服的答卷
运行态:运行态的应用处于全速运行的状态(资源可使用到 4C8G),它们可以使用充足的资源全速运行,承载 100% 的流量; 保活态:保活态的应用处于低速运行的状态(资源可使用到 1C2G),它们仅可使用受限的资源低速运行,承载 1% 的流量,剩余 99% 的流量由 SOFAMosn 转发给运行态节点;
Pod 级别 CPU Mem 限额配置,Sidecar 与 APP 共享 CPU Mem; 运维周边建设: 原地注入; 平滑升级; Sidecar 重启; 监控建设: 系统指标:CPU、Mem、TCP、Disk IO; Go 指标:Processor、Goroutines、Memstats、GC; RPC 指标:QPS、RT、连接数; 旁路增强: 服务注册中心性能提升;
回顾
如何让 Service Mesh 发挥最大的业务价值?保证效率增加成本不变 如何达成几十万容器接入 SOFAMosn 的目标?降低接入成本 如何处理几十万容器 SOFAMosn 的版本升级问题?降低应用感知 如何保障 Service Mesh 的性能与稳定性达标?性能与稳定性层层优化
Service Mesh 双十特别场活动
双 11 洗礼下的阿里巴巴 K8s 超大规模实践经验 蚂蚁金服首次 Service Mesh 大规模落地经验 阿里巴巴超大规模神龙裸金属 K8s 集群运维实践经验
时间:2019年11月24日(本周日)9:30-16:30 地点:北京市朝阳区大望京科技商务园区宏泰东街浦项中心B座2层多功能厅 报名方式:点击“阅读原文”即可锁定席位